【实战教程】python批量提取pdf文件中指定范围文字存储为txt文件

最新推荐文章于 2024-08-09 04:15:09 发布

搬运工_学童

最新推荐文章于 2024-08-09 04:15:09 发布

阅读量3.9k

点赞数 4

文章标签： python

本文链接：https://blog.csdn.net/Hig2020/article/details/121818877

版权

本文介绍如何使用Python从PDF文件中批量提取指定范围的文字，例如以‘第三节公司业务概要’和‘第四节管理层讨论与分析’作为边界，将内容保存为TXT文件。通过设置关键词，可以灵活调整提取范围，便于后续的文本分析。代码包含进度显示，可按需调整。遇到未成功提取的PDF，可能需要手动检查修复。提取后的TXT文件可用于进一步的词频统计等分析。

摘要由CSDN通过智能技术生成

解决问题：将一个文件夹里的所有上市公司年报的pdf文件利用开始和结尾关键字提取pdf文件指定范围的文本存储为txt文件，然后进行文本分析，文本分析的内容将放到下一个文章。

代码如下：先导入库，然后定义函数，定义函数部分不需要改动。

#导入所需的库
import os
import re
import pdfplumber

#从字符串中提取指定首尾的文字
def Get_text(start_str, end_str, source_str):
    start = source_str.find(start_str) #找到开始关键词对应的位置索引
    if start >= 0:
        start += len(start_str)
        end = source_str.find(end_str, start)#找到结束关键词对应的位置索引
        if end >= 0:
            return source_str[start:end].strip() #截取起始位置之间的字符


#定义写入txt的函数
def To_txt(filename, final_text):      #filename为写入文件的路径，data为要写入数据列表.
    file = open(filename + '.txt','a',encoding='utf8')
    file.write(filename + "\n")
    for i in range(len(final_text)):
        text = final_text[i]
        if i != len(final_text)-1:     #判断是否最后一个元素
            text